拿到一组数据, 我们首先想知道这组数据的中心位置在哪里, 即数据围绕什么中心数值 波动, 这称为集中趋势的度量。通常用均值来度量, 均值有如下 4 种。
总体均值 $$ \mu=\frac{1}{N} \sum_{i=1}^N X_i $$ 样本均值 $$ \bar{x}=\frac{1}{n} \sum_{i=1}^N x_i $$
在金融学中的绩效平均时, 历年收益率的平均收益率应该用几何平均率, 即时间加权收益率, 它不受投资项目资金流人和流出的影响。几何平均收益率为 $t$ 年收益率分别加1之 后相乘, 再开 $t$ 次方, 然后减去 1 。公式为: $$ \bar{R}_g=\sqrt[t]{\left(1+R_1\right)\left(1+R_2\right) \cdots\left(1+R_n\right)}-1 $$
其中 $w_i$ 为 $x_i$ 的权重, 且权重之和为 1 。当所有权重相等时, 加权平均即为算术平均。 加权平均在金融学中的应用: 一个资产组合的收益率, 等于其中各个资产收益率的加权平均, 权重为各个资产市值占总资产组合市值的百分比。
当观测值不全相等时, 有: 调和平均 $<$ 几何平均 $<$ 算术平均。
如果有一组数据, 把它按从小到大的顺序排列, 将这一数列等分成两份, 这个分位数称为中位数, 对于奇数个数组成的数列, 中位数就是中间的那个数, 对于偶数个数组成的数列, 中位数就是中间的那个两个数相加除以 2。
由于均值受异常值的影响较大, 因此用均值来估计中心趋势显得很不稳定, 而中位数的 优点是受异常值影响较小,估计量稳定。
众数就是一组数据中出现次数最多的数。
如数列 : $1,1,2,2,3,3,3,4,5$, 其众数为 3 。
如数列: $1,1,1,2,2,3,3,3,4,5$, 其众数为 1 和 3 。
如数列: $1,2,3,4,5$, 没有众数或者说每个数都是众数。
一组数据可能有一个众数, 可能有多个众数, 也可能没有。众数的这一性质使得其使用范围受到限制。
如果我们有一组数据, 把它们按从小到大的顺序排列, 分位数就是正好能将这一数列等分的数。
将这一数列等分成两份, 这个分位数称为中位数。将这一数列等分为 4 份, 这 3 个分位 数都称为四分位数, 它从小到大依次称作: 第 1 个四分位数、第 2 个四分位数、第 3 个四分 位数。第 2 个四分位数就是中位数。
也可以将这一数列等分成 5 份, 得到 4 个五分位数。也可以将这一数列等分成 10 份, 得到 9 个十分位数。也可以将这一数列等分成 100 份, 得到 99 个百分位数。
我们可以把所有的分位数都转换成百分数。例如, 第 2 个五分位数就是第 40 个百分位 数,第 3 个四分位数就是第 75 个百分位数。这样,我们就可以用以下公式来计算分位数:
$$
L_y=(n+1) y / 100
$$
其中,
$n$ : 数列中一共有多少个数;
$y$ : 第几个百分数;
$L_y$ : 结果是数列的第几个数。
例如:
有这样一组数: $2,5,7,9,12,16,21,34,39$, 计算第 4 个五分位数。
第 4 个五分位数就是第 80 个百分位数, 数列共有 9 个数, 套用公式
$$
L_y=(n+1) y / 100=(9+1) \times 80 / 100=8
$$
数列的第 8 个数即为 34 。
有这样一组数列: $2,5,7,9,12,16,21,34,39,40$, 计算第 4 个五分位数。
第 4 个五分位数就是第 80 个百分位数, 数列共有 10 个数, 套用公式
$$
L_y=(n+1) y / 100=(10+1) \times 80 / 100=8.8
$$
数列的第 $8.8$ 个数是什么意思, 就是第 8 个数再往右的 $0.8$ 个数, 第 8 个数是 34 , 第 9 个数是 39 , 相差 5 , 那么 $0.8$ 个数就是 $5 \times 0.8=4$, 所以 $34+4=38$, 即第 4 个五分位数是 38 。
参考资料: